一個技術理想主義者,如何被中國AI的“工程現實”重新定義。過去幾年,梁文鋒幾乎拒絕了所有網際網路時代熟悉的劇本。別人融資,他拒絕;別人搶入口,他開源;別人卷參數,他卷效率;別人把AI當成生意,他卻一直在談AGI。DeepSeek因此看起來更像一家“研究機構”,而非創業公司。直到2026年春天,事情開始變化。GPT-5.5發佈不到24小時,DeepSeek-V4預覽版上線。發佈後不到五天,接連三次降價,昨天,DeepSeek“識圖模式”又開始灰度測試,補上了多模態這塊缺失最久的拼圖。DeepSeek多模態團隊研究員陳小康在X上的發帖與此同時,那個長期拒絕騰訊、阿里和頂級VC的梁文鋒,第一次主動打開了融資的大門。一邊把價格打到骨折,一邊卻伸手拿錢;一邊叫苦算力吃緊,一邊承諾還要降價,梁文鋒這位把AGI掛在嘴邊的人,是向商業現實“繳械投降”,還是在醞釀一場更大的風暴?01. “反常識”的72小時4月24日,GPT-5.5發佈不到二十四小時後,DeepSeek-V4預覽版悄然上線。沒有發佈會,就像這家公司的一貫作風:事情做完了,放出來,你們自己看。V4-Pro發佈後,最先引發討論的不是能力,而是價格。相比前代V3.2,這一次V4-Pro的定價看起來明顯更高。很多人第一反應是DeepSeek終於開始走向“正常商業化”了。但很快,事情又出現反轉。不到一天,官網低調更新價格,直接打到2.5折。隨後又一次更新:快取命中價格永久降至發佈價的十分之一。研究員甚至在社交媒體上直接打出“AGI for Everyone”的標籤,強調這是永久價格,而非促銷活動。更耐人尋味的,是官網價格頁面裡那行不起眼的小字:“受限於高端算力,目前Pro服務吞吐有限,預計下半年昇騰950超節點批次上市後,Pro價格會大幅下調。”這意味著DeepSeek公開承諾未來還會繼續降價,且這次價格下調繫結的,不再只是DeepSeek自己的技術最佳化,還有中國國產高端算力的量產節奏。與此同時,DeepSeek還啟動了成立以來的首次外部融資,目標估值從100億美元迅速抬升至200億美元乃至更高,騰訊、阿里相繼被傳洽談入局。降價、又融資,看起來很矛盾,但回看DeepSeek的發展歷程,會發現到它的野心從不只是“做模型”。過去兩年,全球大模型行業的默認邏輯一直是模型越強,成本越高,能力越強,價格越貴。OpenAI、Anthropic都建立在這套邏輯之上。但DeepSeek-V4要做的不是“賣更貴的智能”,而是不斷降低“智能”的邊際成本,實現AGI平權。這種對“邊際成本”的執念,從DeepSeek的前身幻方量化就已經開始了。2021年,當大多數科技公司還在討論AI概念時,幻方已經囤積了上萬張A100,自建了“螢火”算力叢集。在高度競爭的市場裡,成本結構本身就是護城河,這是梁文鋒在幻方時便想明白的,這套理念也被完整地繼承到了DeepSeek。DeepSeek V4-Pro約5.22美元,快取命中後進一步降至3.6美元左右。同等輸入輸出量下,GPT-5.5的API成本約35美元,Claude Opus 4.7約30美元。V4-Flash更激進,成本不到競爭對手的2%。這已經不是簡單的價格差,而是“量級差”了。“超低價”背後是模型架構、推理系統與算力調度共同最佳化後的結果。V4-Pro支援100萬token上下文,在部分長文字場景下,單token推理所需算力相比前代明顯下降,KV Cache佔用也大幅減少。過去行業處理長上下文,很多時候依賴的是持續堆視訊記憶體、堆頻寬;DeepSeek嘗試通過架構最佳化減少一部分無效計算與資源浪費。當然,效率上的突破並不等於全面超越。DeepSeek內部的真實評測顯示,V4目前已成為公司員工日常使用的Agentic Coding模型,使用體驗優於Sonnet 4.5,交付質量接近Opus 4.6的非思考模式,但與Opus 4.6的思考模式仍存在一定差距。開源和低價建立了影響力,可“一分錢一分貨”的道理,在頂級閉源模型身上依然成立。某種程度上,V4真正改變的,其實不是模型能力,而是行業對“智能應該值多少錢”的認知。極客肖恩·多納霍在Facebook發帖稱,自己把部分程式設計工具切換到DeepSeek之後,月帳單下降了90%以上,效果卻並未明顯下降。科技博主 Simon Willison 每次 DeepSeek 發佈新版本,他都會用同一句提示詞 生成一張鵜鶘騎自行車的 SVG。這次也一樣,測試之後他稱DeepSeek-V4-Pro 是“大型前沿模型中最便宜的一款”。上:DeepSeek-V4-Flash 版 下:DeepSeek-V4-Pro 版這幾位開發者或許只是個例,但他們背後折射出的趨勢值得關注:當價格差拉到“量級差”,開發者重新分配算力預算的動機也會增強。而當越來越多應用、Agent和開發工具開始基於同一種模型生態建構時,真正形成護城河的,未必只是模型能力本身,還包括開發者習慣、呼叫路徑以及整個生態的成本慣性。Deepseek想用極致的性價比,成為那個被開發者“持續依賴”的選項。02. DeepSeek 的“二度奇襲”2025年1月,Deepseek R1發佈,引發全球震動。Deepseek應用很快登頂蘋果中國和美國地區App Store免費榜首,Nvidia單日市值蒸發約6000億美元,美國風投家馬克·安德森稱之為AI領域的"斯普特尼克時刻"。一個杭州的量化團隊,用560萬美元的訓練成本,做出了對標OpenAI頂級模型的效果,並且開源了。彼時,世界對梁文鋒的理解,是"用更少的錢做更好的模型"。很多人後來把R1理解成“受限條件下的逆襲”,但其實並不完全精準。早在行業真正意識到大模型價值之前,幻方就已經開始大規模採購算力、建設叢集。後來外界看到的“低成本奇蹟”,更像一次長期積累後的集中爆發。梁文鋒真正厲害的地方,是他比大多數人更早意識到未來AI競爭的核心,不只是模型能力,還有算力效率。但隨著DeepSeek從技術黑馬變成核心玩家,新的問題也開始浮現。過去的DeepSeek,很像一個隱秘的研究組織,幻方量化在背後輸血,梁文鋒不缺錢,研究員埋頭做模型。Deepseek在X上的簽名都是“用好奇心揭開通用人工智慧的奧秘,用長遠的眼光回答根本問題”,學術味兒十足。但AI行業不會長期尊重“隱士”,尤其當你手裡真的有“真經”的時候。從2025年底到2026年,多位DeepSeek核心成員相繼離開。V3架構關鍵開發者羅福莉去了小米,第一代大語言模型核心作者王炳宣去了騰訊,R1核心研究員郭達雅被字節跳動以傳聞中“近億元的總包”帶走,多模態方向核心研究員阮翀轉投元戎啟行。過去,大模型公司的目標相對統一:訓練更強的基礎模型,到了2026年,行業開始迅速分化,Agent、多模態、端側AI、機器人、自動駕駛,陸續變成新的戰場。這時候,一個研究員如果想做Agent,去字節會面對真實月活場景;想讓AI理解物理世界,去自動駕駛公司顯然更有吸引力。DeepSeek太專注把模型本身做到極致,這種組織文化,能夠吸引最純粹的研究者,卻很難長期承載所有方向。它最強的地方,在這一刻成為它最大的桎梏。主流AI公司搶的是有經驗的工程師,梁文鋒卻更青睞頂尖高校的年輕博士生,因為在他看來這些人"渴望證明自己","可以完全不帶功利地投入去做一件事"。初期DeepSeek的確可以用技術理想主義吸引天才,但很難長期用理想主義支付機會成本,尤其在同行已經開始形成市場估值的時候。近兩年,OpenAI、Anthropic不斷刷新融資數字,投後估值高達8400億、3800億美元,國內的智譜、MiniMax相繼掛牌港交所,市值一度突破4000億和3800億港元。大廠給的是有行權價、有IPO預期、有內部回購機制的期權,而不融資的DeepSeek,沒有“度量衡”。在競爭白熱化的AI人才市場裡,沒有市場化估值錨點的期權,等於一張無法兌現的期票。梁文鋒或許也是意識到了這一點,所以開放了融資。但這依然是一個極具“梁式色彩”的融資方案。此次融資目標募集金額不低於3億美元,計畫以不低於200億美元的估值進行。與此同時,工商資訊顯示,梁文鋒在增資後直接持股佔比由1%提升至34%,其作為實際控制人的最終受益股份仍為84.29%,表決權比例仍為100%。他用大約3%的股權,換來了市場對這家公司的價值認證。董事會的控制權,一票未讓。對比同行,這個數字更加意味深長。OpenAI 2026年完成的最新一輪融資,募集1220億美元,投後估值8520億美元;Anthropic 2026年2月完成300億美元G輪融資,投後估值3800億美元。3億美元,放在今天的AI賽道里,甚至比不上同行一輪融資的零頭。梁文鋒選擇用這個體量融資,就是為給員工手中的期權,建立起相對清晰的估值錨點和兌現預期,穩住人才,同時讓公司不被短期增長所裹挾。03. 允許梁文鋒再“偉大一次”R1證明了中國AI可以做出世界級模型,V4之後,梁文鋒試圖證明中國AI可以建立起自己的“底座標準”,那怕這條路,很難。有個細節,V4發佈後,華為昇騰生態官方帳號,專門為DeepSeek-V4做了一場直播。晶片廠商親自下場給一款模型站台,並不常見。它釋放的訊號超出產品本身:DeepSeek第一次公開地,把自己的模型路線與國產算力的量產節奏綁在一起。過去幾年,中國AI行業有個默認順序,模型可以開源,演算法可以追趕,但輝達的生態護城河最難撼動。CUDA是輝達二十年攢下的工具鏈、算子庫、開發框架和開發者習慣,全球AI幾乎默認運行在這套底座之上。要脫離它,可不是“換塊顯示卡”那麼簡單。尤其在兆級參數模型上,難度會被進一步放大。參數越大,對視訊記憶體頻寬、通訊效率、叢集穩定性的要求就越高。模型團隊不僅需要針對國產晶片重寫和最佳化核心算子,甚至還需要自研確定性算子,保證長時間訓練過程中的精確可復現。更現實的問題是在萬卡叢集裡,硬體故障不是意外,而是必然。於是,訓練框架必須同時具備完整的檢測、容錯與恢復能力。如果效率跑不上去,成本就只是空談。V4延期超過十五個月,遷移代價是原因之一。目前V4的細粒度專家平行方案已經同時在輝達GPU和華為昇騰NPU兩個平台上完成驗證,在通用推理場景中實現了1.5到1.96倍的加速。推理層面跑通了,但開放原始碼主體仍基於CUDA,底層工具鏈尚未完全轉移,原因在於昇騰950超節點尚未批次上市,現有產能撐不起V4-Pro的大規模服務。不過DeepSeek已經把下一輪降價,公開寫進了國產算力的量產時間表裡。昇騰950PR單卡算力達到輝達H20的2.87倍,是目前國內唯一支援FP4低精度推理的產品,HBM容量112GB。規格是真實的,只等工業化落地。梁文鋒當年從幻方量化的GPU叢集起家,把算力當作研究的彈藥。如今他讓中國模型和中國晶片的命運,在商業上深度捆綁,並在所有人面前承諾,這是梁文鋒在晶片封鎖的現實下,做出的務實選擇。但這條路有個前提:模型能力必須始終足夠硬。V4把1M上下文做成標配、對Agent能力做專項最佳化、推出三檔推理強度,這些不是給評測榜單準備的,是給真實企業工作流準備的。只有先在真實生產場景裡證明自己不可替代,Deepseek的“底座”敘事才能成立。未來,梁文鋒和Deepseek要走的路還很長,國產算力的工業化時間表能否如期兌現,模型能力能否在閉源頂級模型高速迭代的壓力下保持競爭力,開發者生態能否形成足夠的黏性……它們像棋盤上尚未閉合的“氣眼”,每一個都關乎生死,可這些問題,現在都還沒有答案。Deepseek爆火後,被問及"商業公司做無限投入的研究性探索是否瘋狂"時說,梁文鋒曾說過一句話:"我們終其一生所渴望的,就是找到自己,然後成為自己。"這句話在R1發佈後的語境裡讀,是一個創始人的理想宣言。如今再讀,份量更重了些。AI競爭的上半場,他用技術效率、定價顛覆和算力豪賭,贏得了繼續下棋的資格,成就了Deepseek的"偉大"。下半場,允許梁文鋒再“偉大一次”,不是因為他已經攻下了某個技術的山頭,而是他正在為一場漫長的遠征搭建底座。不誘於譽,不恐於誹,率道而行,端然正己。這是荀子的精神,也是Deepseek的信條。 (奇點研究社)